استخراج خودکار جملات همتراز انگلیسی-فارسی از متون مقایسهای با بهرهبرداری از اطلاعات نحوی
Authors
Abstract:
پیکرههای موازی همواره از غنیترین منابع در مباحث پردازش زبان طبیعی محسوب میشوند. این نوع پیکرهها شامل متون ترجمهشدۀ دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله همترازشدهاند. علیرغم کاربرد فراوان این نوع پیکرهها در مطالعات مختلف از جمله پژوهشهای زبانی، ترجمة ماشینی آماری و سامانههای خودکار بازیابی اطلاعات میان زبانی، متأسفانه همواره پژوهشگران با کمبود پیکرههای موازی مواجه بودهاند. در این راستا، در پژوهش حاضر سعی شده است بهمنظور تولید پیکره موازی با بهرهگیری از اطلاعات نحوی، روشی خودکار برای استخراج جملات همترازانگلیسی/فارسی از متون مقایسهای ارائه شود. در این روش، با ساخت بردار ویژگی با بهرهگیری از اطلاعات نحوی جملات، یک مدل همترازی آموزش داده میشود. دقت مدل همترازی،در بهترین حالت، به شکل عملیاتی روی دادههای آزمون (208 عدد جفت جمله) 77% و روی دادههای آموزشی (830 عدد جفت جمله) 7/97 % محاسبه شد. از آنجایی که حجم دادههای طلایی بسیار کوچک بود روش n-fold cross validation در مورد تمام الگوریتمهای آموزش مورد استفاده قرار گرفت. بهمنظور افزایش دقت، از یک الگوریتم جستوجوی شباهت لغوی جملات نیز استفاده شد که دقت را روی دادههای آزمون از 77% به 18/85% افزایش داد. پژوهش حاضر، با بهکارگیری مدل همترازی بهدستآمده، به تولید ابزار همترازی دانشگاه اصفهان منجر شد، که میتواند بهمنظور خودکفایی در تولید پیکرههای موازی مورداستفاده محققین حوزه پردازش زبان فارسی قرار گیرد.
similar resources
استخراج خودکار عبارتهای کلیدی از متون مقالههای فارسی
در پژوهش حاضر، عبارتهای کلیدی از متون مقالههای فارسی به صورت خودکار جداسازی گردیده است. استخراج عبارتها مبتنی بر روشهای آماری، نحوة توزیع واژگان، مجاورت و ... صورت پذیرفته است. سیستمی که بر پایه پژوهش حاضر طراحی گردیده، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، به گونهای که در طول زمان مرتباً به کارایی آن افز...
full textرویکردی کمینهگرا به نوعبندی نحوی جملات امری در فارسی
مقالة حاضر تلاش میکند شیوة نوعبندی جملات امری را در گونة گفتاری فارسی در قالب برنامة کمینهگرا تبیین نماید. از اینرو، با الگوگیری از رویکرد هان و شواگر سازوکار حاکم بر جوازدهی جملات امری در فارسی بررسی میگردد. چارچوب نظری این پژوهش، نظریة بازبینی مشخصهها و فرضیة گروه متممنمای انشقاقی ریتزی (1997) است. ابتدا استدلال میشود که در ساختهای امریِ بینشان و نشاندار، حرکت آشکار فعل به هستة گروه...
full textمهندسی خودکار هستی شناسی: امکان سنجی استخراج روابط معنایی از متون فارسی و تعیین میزان پیدایی آنها
در این مقاله ضمن تبیین فرایند مهندسی هستی شناسیها، استخراج روابط معنایی با تکیه بر روشهای مبتنی بر الگو، مطالعه شده است. نمونهای از متون تخصصی فارسی در حوزة ربط تحلیل و روابط معنایی موجود در آن استخراج و دستهبندی گردید. همچنین، تعیین میزان پیدایی روابط معنایی در نمونة مورد تحلیل، در پاسخ به دومین پرسش پژوهش انجام پذیرفت. امکان استخراج و تعیین روابط معنایی در نمونه مورد تحلیل، تأیید ش...
full textتشخیص خودکار جنسیت نویسنده در متون فارسی
Gigantic amount of textual data being transfers in web everyday. like other communities,cyberspace is vulnerable to attacks, false information and deception.it becomes increasingly important to design an efficient method to trace identity in this community.to investigate the problem of gender identification,we propose 48 feature,and design three machine learning algorithms.the results of study ...
full textارائه روشی جدید برای شاخصگذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشهبندی متون
Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...
full textMy Resources
Journal title
volume 10 issue 2
pages 15- 36
publication date 2018-09-23
By following a journal you will be notified via email when a new issue of this journal is published.
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023